通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
我们呈现横梁,一个大规模数据集,包括1500多个语言对的165万次交叉文章摘要样本,构成了45种语言。我们使用多语言XL-SUM数据集,并通过使用语言 - 不可知的表示模型通过跨语言检索对齐以不同语言编写的相同文章。我们提出了一种多级数据采样算法和微调MT5,这是一种多语言预制模型,具有横梁的明确交叉监管,并引入了评估交叉综述的新度量。成立和我们拟议的指标的结果表明,即使源和目标语言对遥远的速度和目标语言对,也表明,即使源极和目标语言对遥远的速度,也表明模型优于概要概述+翻译基线。据我们所知,Crosssum是最大的交叉汇总数据集,也是第一个不依赖英语作为枢轴语。我们正在发布数据集,对齐和培训脚本以及模型,以促使未来的交叉抽象摘要研究。可以在\ url {https://github.com/csebuetnlp/crosssum}中找到资源。
translated by 谷歌翻译
从不平衡数据中学习是一项具有挑战性的任务。在进行不平衡数据训练时,标准分类算法的性能往往差。需要通过修改数据分布或重新设计基础分类算法以实现理想的性能来采用一些特殊的策略。现实世界数据集中不平衡的流行率导致为班级不平衡问题创造了多种策略。但是,并非所有策略在不同的失衡情况下都有用或提供良好的性能。处理不平衡的数据有许多方法,但是尚未进行此类技术的功效或这些技术之间的实验比较。在这项研究中,我们对26种流行抽样技术进行了全面分析,以了解它们在处理不平衡数据方面的有效性。在50个数据集上进行了严格的实验,具有不同程度的不平衡,以彻底研究这些技术的性能。已经提出了对技术的优势和局限性的详细讨论,以及如何克服此类局限性。我们确定了影响采样策略的一些关键因素,并提供有关如何为特定应用选择合适的采样技术的建议。
translated by 谷歌翻译
类不平衡是分类任务中经常发生的情况。从不平衡数据中学习提出了一个重大挑战,这在该领域引起了很多研究。使用采样技术进行数据预处理是处理数据中存在的不平衡的标准方法。由于标准分类算法在不平衡数据上的性能不佳,因此在培训之前,数据集需要足够平衡。这可以通过过度采样少数族裔级别或对多数级别的采样来实现。在这项研究中,已经提出了一种新型的混合采样算法。为了克服采样技术的局限性,同时确保保留采样数据集的质量,已经开发了一个复杂的框架来正确结合三种不同的采样技术。首先应用邻里清洁规则以减少失衡。然后从策略上与SMOTE算法策略性地采样,以在数据集中获得最佳平衡。该提出的混合方法学称为“ smote-rus-nc”,已与其他最先进的采样技术进行了比较。该策略进一步合并到集合学习框架中,以获得更健壮的分类算法,称为“ SRN-BRF”。对26个不平衡数据集进行了严格的实验,并具有不同程度的失衡。在几乎所有数据集中,提出的两种算法在许多情况下都超过了现有的采样策略,其差额很大。尤其是在流行抽样技术完全失败的高度不平衡数据集中,他们实现了无与伦比的性能。获得的优越结果证明了所提出的模型的功效及其在不平衡域中具有强大采样算法的潜力。
translated by 谷歌翻译
已知应用于任务序列的标准梯度下降算法可在深层神经网络中产生灾难性遗忘。当对序列中的新任务进行培训时,该模型会在当前任务上更新其参数,从而忘记过去的知识。本文探讨了我们在有限环境中扩展任务数量的方案。这些方案由与重复数据的长期任务组成。我们表明,在这种情况下,随机梯度下降可以学习,进步并融合到根据现有文献需要持续学习算法的解决方案。换句话说,我们表明该模型在没有特定的记忆机制的情况下执行知识保留和积累。我们提出了一个新的实验框架,即Scole(缩放量表),以研究在潜在无限序列中的知识保留和算法的积累。为了探索此设置,我们对1,000个任务的序列进行了大量实验,以更好地了解这种新的设置家庭。我们还提出了对香草随机梯度下降的轻微修改,以促进这种情况下的持续学习。 SCOLE框架代表了对实用训练环境的良好模拟,并允许长序列研究收敛行为。我们的实验表明,在短方案上以前的结果不能总是推断为更长的场景。
translated by 谷歌翻译
大规模预训练的快速开发导致基础模型可以充当各种下游任务和领域的有效提取器。在此激励的情况下,我们研究了预训练的视觉模型的功效,作为下游持续学习(CL)场景的基础。我们的目标是双重的。首先,我们想了解RAW-DATA空间中CL和预训练编码器的潜在空间之间CL之间的计算准确性权衡。其次,我们研究编码器的特征,训练算法和数据以及所得的潜在空间如何影响CL性能。为此,我们将各种预训练的模型在大规模基准测试方案中的功效与在潜在和原始数据空间中应用的香草重播设置的功效。值得注意的是,这项研究表明了转移,遗忘,任务相似性和学习如何取决于输入数据特征,而不一定取决于CL算法。首先,我们表明,在某些情况下,通过可忽略的计算中的非参数分类器可以很容易地实现合理的CL性能。然后,我们展示模型如何在更广泛的数据上进行预训练,从而为各种重播大小提供更好的性能。我们以这些表示形式的代表性相似性和传递属性来解释这一点。最后,与训练域相比,我们显示了自我监督预训练对下游域的有效性。我们指出并验证了几个研究方向,这些方向可以进一步提高潜在CL的功效,包括表示结合。本研究中使用的各种数据集可以用作进一步CL研究的计算效率游乐场。该代码库可在https://github.com/oleksost/latent_cl下获得。
translated by 谷歌翻译